针对目前方面级情感分析(ABSA)模型过多依赖关系较为稀疏的句法依赖树学习特征表示,导致模型学习局部信息能力不足的问题,提出了一种融合多窗口局部信息的ABSA模型MWGAT(combining Multi-Window local information and Graph ATtention network)。首先,通过多窗口局部特征学习机制学习局部上下文特征,并挖掘文本包含的潜在局部信息;其次,采用能够较好理解依赖树的图注意力网络(GAT)学习句法依赖树所表示的语法结构信息,并生成语法感知的上下文特征;最后,将这两种表示不同语义信息的特征融合,形成既包含句法依赖树的语法信息又包含局部信息的特征表示,从而便于分类器高效判别方面词的情感极性。在Restaurant、Laptop和Twitter这3个公开数据集上进行实验,结果表明与结合了句法依赖树的T-GCN(Type-aware Graph Convolutional Network)模型相比,所提模型的Macro-F1分数分别提高了2.48%、2.37%和0.32%。可见,所提模型能够有效挖掘潜在的局部信息,并更为精确地预测方面词的情感极性。
面向方面的细粒度意见提取(AFOE)以意见对的形式从评论中提取方面词和意见词,或在此基础上再提取方面词的情感极性形成意见三元组。针对现有研究方法忽略了意见对与上下文相关性的问题,提出一种面向方面的自适应跨度特征的网格标记方案(ASF-GTS)模型。首先,利用BERT(Bidirectional Encode Representation from Transformers)模型获得句子的特征表示;然后,采用自适应跨度特征(ASF)方法加强意见对与局部上下文的联系;其次,通过网格标记方案(GTS)将意见对提取(OPE)转化为统一的网格标记任务;最后,使用特定的解码策略生成对应的意见对或意见三元组。在适用于意见元组提取任务的四个AFOE基准数据集上进行实验,结果表明,与GTS-BERT(Grid Tagging Scheme-BERT)模型相比,所提模型在意见对和意见三元组任务上的F1值分别提高了2.42%~7.30%和2.62%~6.61%。所提模型能够有效保留意见对与上下文的情感联系,更精确地提取意见对及其情感极性。
搜索并重用相关代码可以有效提高软件开发效率。基于深度学习的代码搜索模型通常将代码片段和查询语句嵌入同一向量空间,通过计算余弦相似度匹配并输出相应代码片段;然而大多数模型忽略了代码片段与查询语句间的协同信息。为了更全面地表征语义信息,提出一种基于协同融合的代码搜索模型BofeCS。首先,采用BERT(Bidirectional Encoder Representations from Transformers)模型提取输入序列的语义信息并将它表征为向量;其次,构建协同融合网络提取代码片段和查询语句间分词级的协同信息;最后,构建残差网络缓解表征过程中的语义信息丢失。为验证BofeCS的有效性,在多语言数据集CodeSearchNet上进行实验。实验结果表明,相较于基线模型UNIF(embedding UNIFication)、TabCS(Two-stage attention-based model for Code Search)和MRCS(Multimodal Representation for neural Code Search),BofeCS的平均倒数排名(MRR)、归一化折损累计增益(NDCG)和前k位成功命中率(SR@k)均有显著提高,其中MRR值分别提升了95.94%、52.32%和16.95%。
针对异构网络中天线资源有限导致无法实现完全干扰对齐(IA)这一问题,提出一种根据异构网络特点使天线资源利用率最大的部分IA方案。首先,根据异构网络中部分连通性构建系统模型,并分析系统实现IA的可行性条件;然后,基于网络的异构性(基站功率和用户稳定性的不同)对用户划分不同的优先级并分配不同的天线资源;最后,以系统总速率最大和天线资源利用率最大为目标设计高优先级用户完全对齐、低优先级用户消除最大干扰的部分IA方案。在Matlab仿真实验中,所提算法相比传统的IA算法在天线有限情况下能提高10%的系统总速率,并且高优先级用户接收到的速率比低优先级用户的速率高40%。实验结果表明,所提算法能充分利用有限天线资源,在满足用户差异性需求的同时实现系统总速率最大。
针对基于区域增长算法的能见度检测方法精度低和计算复杂度高的问题,提出一种基于拐点线(IPL)检测滤波器的能见度检测算法。首先,分析了拐点线所具有的各向异性、连续性和水平性等特征;然后,根据这些特征构建了一个拐点线检测滤波器,以提高拐点检测的精度和速度;最后,结合能见度计算模型和拐点线检测滤波器的检测结果计算大雾天气下的能见度值。与基于区域增长算法的能见度检测方法相比,该算法的运行时间和检测误差分别降低了80%和12.2%。实验结果表明,基于拐点线检测滤波器的能见度检测算法能够有效提高雾天能见度的检测精度,降低拐点定位的计算复杂度。
内存云(RAMCloud)的出现改善了在线数据密集型(OLDI)应用的用户体验,但其能耗高于传统的云数据中心。针对该问题,提出一种适用于该架构的磁盘节能策略。首先,引入遗传算法中适应度函数和轮盘赌法,尽量选择更为节能的磁盘进行数据持久化备份;其次,设定合理的服务器内存缓冲区来延长磁盘的平均连续空闲时间,使得部分服务器磁盘在空闲时进入待机状态。仿真实验结果表明,在50台服务器的内存云系统中,该策略能有效节能约12.69%;而缓冲区大小的设定对于节能效果和数据可用性具有双重影响,需权衡考虑。
由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。